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ArriPrP-plan de I'invention 

L'invention concerne un procede de classification automatique 

d'un ensemble d'alertes issues de sondes de detection d'intrusions. 

La securite des systemes d'information passe par le 
10 deploiement de systemes de detection d'intrusions « IDS » comportant 

des sondes de detection d'intrusions qui emettent des alertes vers des 

systemes de gestion d'alertes. 

En effet, les sondes de detection d'intrusions sont des 

composants actifs du systeme de detection d'intrusions qui analysent une 
15 ou plusieurs sources de donnees a la recherche d'evenements 

caracteristiques d'une activite intrusive et emettent des alertes vers les 

systemes de gestion d'alertes. Un systeme de gestion des alertes 

centralise les alertes provenant des sondes et effectue eventuellement une 

analyse de I'ensemble de ces alertes. 
20 Les sondes de detection d'intrusions generent un tres grand 

nombre d'alertes qui peut comprendre plusieurs milliers par jour en 

fonction des configurations et de I'environnement. 

L'exces d'alertes peut resulter d'une combinaison de plusieurs 

phenomenes. Tout d'abord, des fausses alertes represented jusqu'a 90% 
25 du nombre total d'alertes. Ensuite, les alertes sont souvent trop 

granulaires, c'est-a-dire que leur contenu semantique est tres pauvre. 

Enfin les alertes sont souvent redondantes et recurrentes. 

Le traitement amont des alertes au niveau du systeme de 

gestion est done necessaire pour faciliter le travail d'analyse d'un 
30 operateur de securite. Ce traitement consiste a correler les alertes, e'est a 
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dire a reduire la quantite globaie des alertes, tout en ameliorant leur 
semantique. Ceci peut etre fait par une classification non supervisee des 
alertes. 

L'objectif de la classification non supervisee est de decouper 
5 I'espace des alertes en plusieurs classes en tenant compte des variables 
qui les caracterisent 

Dans le present domaine duplication, les alertes qui font 
I'objet de la classification sont decrites par des variables essentieliement 
qualitatives et structurees. 
10 Les variables qualitatives et structurees sont des variables 

appartenant a des domaines discrets dont chacun est muni d'un ordre 
partieL 

Les methodes de classification des variables qualitatives 
structurees sont dites des classifications conceptuelles. 
15 Une methode de classification conceptuelle est proposee par 

R.S. Michalsky et R.E. Stepp, dans une publication intitulee "Learning from 
Observation : Conceptual Clustering", dans le journal "In Machine 
Learning : An, Artificial Intelligence Approach", publie en 1993. 

Cette methode construct de maniere descendante une 
20 hierarchie conceptuelle a partir d f un ensemble de donnees, en 
determinant une partition d'un ensemble complet de donnees en plusieurs 
classes disjointes. 

L'approche utilisee dans cette methode de Michalsky est done 
inadaptee a la classification des alertes, puisqu'elle partitionne Tensemble 
25 des donnees et est incapable d'integrer une nouvelle donnee sans avoir a 
etre reinitialisee. 

En effet, les bases de donnees des alertes sont fortement 
dynamiques car il peut y avoir plusieurs nouvelles alertes par seconde. 

Une autre methode de classification conceptuelle est proposee 
30 par D.H. Fisher, dans une publication d'une these de doctorat, intitulee 
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"Knowledge Acquisition via Incremental Conceptual Clustering", au 
« Department of Information and Computer Science, University of 
California », publiee en 1987. 

La methode de Fisher est une classification conceptuelle 
5 incrementale, qui ne necessite pas une connaissance prealable du nombre 
de classes souhaitees. En revanche, cette methode est utilisee pour des 
variables nominales. 

D'autres methodes derivees de la methode de Fisher prennent 
en charge des donnees structures. La structure de la hierarchie obtenue 
10 par ces methodes est fortement dependante de I'ordre d'insertion des 
donnees. De plus, I'approche de Fisher produit une partition de I'ensemble 
des donnees. 

Par ailleurs, Manganaris et al f dans une publication au « 2nd 
International Workshop on Recent Advances in Intrusion Detection 1999», 
1 5 intitulee "A Data Mining Analysis of RTID Alarms", proposent de modeliser 
un comportement tolere d'un systeme d'information a I'aide des alertes 
fournies par les outils de detection d'intrusions. ^utilisation des systemes 
de detection d'intrusions « IDS » en milieu operationnel montre en effet 
que les alertes les moins frequentes sont generalement les plus suspectes. 
20 Se,on c e modele, les alertes recurrentes sont considerees 

comme etant soit des fausses alertes dues au comportement normal 
d'entites du systeme d'information, mais qui semble intrusif du point de 
vue des systemes IDS, soit des defaillances des entites. 

Une autre methode de classification d'alertes est proposee par 
!5 K. Julisch, dans une publication de « Proceedings of the 17th ACSAC » en 
2001, intitulee "Mining Alarm Clusters to Improve Alarm Handling 
Efficiency". Cette methode propose une generalisation des alertes pour 
mettre en evidence des groupes d'alertes plus pertinents que chaque 
alerte prise individuellement. 
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La methode utilisee par Julisch est une modification d'une autre 
methode connue proposee par Han et al, publiee dans « Advances in 
Knowledge Discovery and Data Mining, AMI Press » en 1996 sous le titre 
"Exploration of the Power of Attribute-Oriented Induction in Data-Mining". 

/Mit Press, 1996. 

Sommairement, la methode utilisee par Han consiste a 
generaliser des variables structures. Le domaine de chaque variable 
possede un ordre partiel represents par une hierarchie arborescente, dont 
le niveau d'abstraction ou generalisation va croissant des feuilles au 
sommet de la hierarchie. 

La methode de Hall est iterative. Chaque iteration consiste a 
choisir un attribut et a generaliser- la valeur-de I'attribut de chaque 
individu, en fonction de la hierarchie qui lui est associee. Les variables qui 
deviennent egales, suite a une generalisation, sont fusionnees. Le nombre 
global de variables decrort done a chaque iteration. Le processus s'arrete 
lorsque le nombre de variables devient inferieur a un seuil donne. 

. Ce critere d'arret n'est pas satisfaisant car on ne peut pas 
savoir a priori combien de groupes d'alertes il est souhaitable de presenter 
a I'operateur de securite. De plus, les alertes generalisees obtenues 
risquent d'etre sur-generalisees et leur interet limite. La difficulte de 
I'approche consiste done a trouver un bon compromis entre une reduction 
importante du nombre d'alertes et le maintien de leur pertinence. 

Alors, la modification apportee par Julisch consiste a retirer de 
I'ensemble d'alertes soumises au processus de generalisation toute alerte 
generalisee dont le nombre d'instances d'alertes sous-jacentes depasse un 
seuil donne\ 

Afin d'eviter le phenomene de sur-generalisation, la 
generalisation effectuee sur les alertes generalisees restantes est annulee, 
et le processus est reitere avec un autre attribut. 
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L'inconvenient de cette methode est qu'elle ne permet pas 
d'identifier des generalisations pertinentes qui auraient pu se presenter si 
les alertes fournies a l'operateur de securite avaient ete conservees pour 
les generalisations suivantes. De plus, la nature des alertes generalisees 
5 obtenues depend de I'ordre des attribute qui est base sur des heuristiques. 

Enfin, la methode de Julisch n'est pas incremental et le 
processus de generalisation doit etre reinitialise a chaque requete de 
l'operateur de securite. 

10 Objet et resume de i'invention 

L'invention a pour but de remedier a ces inconveniente, et de 
fournir une methode simple de classification non supervisee des alertes 
issues de sondes de detection d'intrusions pour engendrer des alertes 
synthetiques les plus generates et les plus pertinentes presentant une 

15 vision globale de I'ensemble des alertes et de fagon entierement 
automatique. 

Ces bute sont atteinte grace a un procede de classification 
automatique d'un ensemble d'alertes issues de sondes de detection 
d'intrusions d'un systeme de securite dlnformation pour produire des 
20 alertes synthetiques, chaque alerte etant definie par une pluralite 
d'attribute qualitatifs appartenant a une pluralite de domaines d'attribute 
dont chacun est muni d'une relation d'ordre partiel, caracterise en ce qull 
comporte les etapes suivantes : 

-organiser les attribute appartenant a chaque domaine d'attribut en une 
25 structure hierarchique comportant plusieurs niveaux definis selon la 
relation d'ordre partiel du domaine d'attribut, la pluralite de domaines 
d'attribute formant ainsi plusieurs structures hierarchiques ; 
-construire pour chaque alerte issue des sondes de detection d'intrusions, 
un treillis propre a cette alerte en generalisant chaque alerte selon chacun 
30 de ses attribute et a tous les niveaux de la structure hierarchique, le treillis 
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propre comportant des noeuds correspondant a des alertes, lies entre eux 
par des arcs de sorte que chaque noeud est lie a un ou des noeuds parents 
et/ou un ou des noeuds enfants ou descendants ; 

-fusionner de fagon iterative dans un treillis general, chacun des treillis 
5 propres ; 

-identifier dans le treillis general, les alertes synthetiques en selectionnant 

les alertes qui sont a la fois les plus pertinentes et les plus generales selon 

des criteres statistiques et selon I'appartenance de leurs attributs a des 

niveaux inferieurs des structures hierarchiques; et 
10 -produire les alertes synthetiques a une unite de sortie d'un systeme de 

gestion d'alertes afin de presenter une vision globale de I'ensemble des 

atertesjssues des sondes de detection d'intrusions. 

Ainsi, la methode selon invention est une methode 

incremental et fournit des classes d'alertes potentiellement non 
1 5 disjointes. 

Selon un premier aspect de Invention, la construction d'un 
treillis propre comporte les etapes suivantes : 

-recuperer pour tout attribut generalisable d'une alerte donnee, la valeur 
generalisee de cet attribut a partir de sa structure hierarchique pour 
20 former une nouvelle alerte plus generate que ladite alerte donnee ; 

-ajouter un nouveau noeud au treillis propre correspondant a la nouvelle 
alerte et ajouter un arc allant du nouveau noeud de la nouvelle alerte au 
noeud de Talerte donnee ; 

-ajouter des arcs manquants allant des noeuds parents de Talerte donnee, 
25 issus de la generalisation de Talerte donnee selon ses autres attributs, au 
noeud de la nouvelle alerte. 

Selon un deuxieme aspect de I'invention, la fusion d'un treillis 
propre donne dans le treillis general comporte les etapes suivantes : 
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-selectionner un premier noeud correspondant a une premiere alerte 
appartenant au treillis propre donne, et un second noeud correspondant a 
une seconde alerte appartenant au treillis general ; 
-supprimer tous les arcs provenant des nceuds parents d'un noeud enfant 
5 du premier nceud si ledit nceud enfant appartient aussi au treillis general, 
-ajouter au treillis general ledit noeud enfant et I'ensemble de ses 
descendants si ledit nceud enfant n'appartient pas au treillis general. 

Selon un troisieme aspect de Invention, une alerte pertinente 
est identifiee lorsque chacun des ensembles des nceuds enfants de I'alerte 
10 pertinente issu d'une specialisation de cette alerte selon chacun de ses 
domaines d'attributs est homogene, et lorsque le nombre d'elements 
composant ledit chacun des ensembles des nceuds enfants de I'alerte 
pertinente est superieur a une valeur seuil. 

Avantageusement, les alertes synthetiques sont associees a des 
15 differents groupes d'alertes issus des sondes de sorte que ces groupes ne 
sont pas forcement mutuellement exclusifs. 

La pluralite des domaines d'attributs peuvent comporter des 
domaines parmi les ensembles suivants : ensemble des identifiants 
d'attaques, ensemble des sources d'attaques, ensemble des cibles 
20 d'attaques, et ensemble des dates d'attaques. 

invention vise aussi un programme informatique congu pour 
mettre en ceuvre le procede ci-dessus, lorsqull est execute par le systeme 
de gestion d'alerte. 

25 Breve description des dessjng 

D'autres particularites et avantages de I'invention ressortiront a 
la lecture de la description faite, ci-apres, a titre indicatif mais non 
limitatif, en reference aux dessins annexes, sur lesquels : 
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-la figure 1 est une vue tres schematique d'un systeme de 
securite d'information comportant un systeme de gestion d'alertes selon 
I'invention ; 

-la figure 2 est un organigramme de formation d'un treillis 
5 propre selon I'invention ; 

-la figure 2A montre tres schematiquement le mecanisme de la 

figure 2 ; 

-la figure 3 est un organigramme de fusion d'un treillis propre 
dans un treillis general selon I'invention ; 
10 -les figures 3A et 3B montrent tres schematiquement le 

mecanisme de la figure 3 ; 

-la figure 4 est un organigramme" de selection des aiertes 
syntheb'ques selon I'invention ; 

-la figure 5 montre de facon tres schematique une alerte 
1 5 associee a differentes aiertes synthetiques selon I'invention ; 

-les figures 6A a 6C montrent tres schematiquement des 
hierarchies simplifies associees aux differents domaines d'attributs des 
aiertes selon I'invention ; et 

-la figure 7 illustre un treillis general associe a deux aiertes 
20 generalisees selon les hierarchies des figures 6A a 6C. 

Description detaillee de modes de realisation 

La figure 1 illustre un exemple d'un systeme de detection 
dlntrusions 1 relie au travers un routeur 3 a un reseau externe 5 et a un 
25 reseau interne 7a et 7b a architecture distribuee. 

Le systeme de detection dlntrusions 1 comporte plusieurs 
sondes de detection d'intrusions 11a, lib, 11c, et un systeme de gestion 
d'alertes 13. Ainsi, une premiere sonde 11a de detection d'intrusions 
surveille les aiertes venant de I'exterieur, une deuxieme sonde lib 
30 surveille une partie du reseau interne 7a comprenant des stations de 
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travail 15 et un troisieme sonde 11c surveille une autre partie du reseau 
interne 7b comprenant des serveurs 17 delivrant des informations au 
reseau externe 5. 

Le systeme de gestion d'alerte 13 peut comporter un hote 19 
5 dedie au traitement des alertes, une base de donnees 21, et une unite de 
sortie 23. 

Ainsi, les sondes 11a, lib, 11c deployees dans le systeme de 
detection d^ntrusions 1 envoient (fleches 26) leurs alertes 25 au systeme 
de gestion d'alerte 13. Ce dernier, conformement a (Invention, procede a 
10 une classification automatique de cet ensemble d'alertes et envoie des 
alertes synthetiques a I'unite de sortie 23 afin de presenter une vision 
globale de Tensemble des alertes issues des sondes de detection 
d'intrusions 11a, lib, 11c. 

En effet, I'hote 19 du systeme de gestion d'alerte 13 comprend 
15 des moyens de traitement pour proceder a la classification automatique 
des alertes et le stockage de cette classification sous forme de tretllis dans 
la base de donnees 21. 

Ainsi, un programme informatique congu pour mettre en oeuvre 
la presente invention peut etre execute par le systeme de gestion 
20 d'alertes. 

Les alertes et d'une maniere generale, les donnees qui peuvent 
faire I'objet d'une classification conceptuelle sont des n-uplets d'attributs 
{a v „a v „.,a n )<zA\ x—xAix„.xA n , Ai etant un ensemble discret muni d'une 

relation d'ordre partiel < Al definissant le domaine de I'attribut a { . 

25 Les ensembles partiellement ordonnes peuvent etre representes 

par un diagramme de Hasse, c'est a dire par un graphe acyclique dirige ou 
une structure hierarchique G = (^ /> cover(^^ / )) dont Tensemble des nceuds 

est constitue des elements de Ai et Tensemble des arcs est constitue par 
la couverture de la relation d'ordre partiel. 
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Dans le present mode de realisation, nous restreignons les 
hierarchies d'attributs a des arbres equilibres : chaque valeur d'attribut a 
au plus un seul parent et la distance des feuilles au sommet de 
I'arborescence est une constante. Toutefois, la presente invention peut 
5 etre facilement adaptee a des hierarchies plus elaborees. 

Une structure hierarchique peut §tre considered comme une 
structure arborescente ou Pancetre d'un element b est un element a tel 
que b< Ai a. Dans ce cas on dit que I'element a est plus abstrait ou plus 

general que I'element b , et reciproquement, on dit que I'element b est 
10 plus specifique que I'element a . 

En particulier, I'element a est un ancetre direct de b si 
(a,b) e wver(< Ai ) , Pesit^^ire/ sirh'extste" pas un element-intermediaire g... 

entre les elements a et b , ou de facon formelle si b -< Ai . a et (?Sg/(g.-< Ai a 

et b< A . g )). 

15 Les elements les plus specifiques d'un domaine d'attribut Ai , 

formant une structure hierarchique, definissent ce qu'on appelle les 
feuilles de cette structure hierarchique. Ainsi, une feuille / est un element 
/ e Ai tel que 2g e A, tel que g < Ai f . 

Chaque attribut possede un niveau d'abstraction ou de 
20 generalisation, defini par un entier correspondant a la hauteur de I'attribut 
dans la structure hierarchique. Le niveau 0 est attribue a la racine de la 
hierarchie, c'est-a-dire a I'ensemble d'elements le plus general. Le niveau 
d'abstraction ou de generalisation d'un element quelconque vaut le niveau 
d'abstraction de son ancetre direct augmente de la valeur 1. 
25 Ainsi, chaque alerte peut etre definie par une pluralite 

d'attributs qualitatifs (a 1} ...a h ...a„) appartenant a une pluralite de 
domaines d'attributs {Al^Ai^.An) dont chacun est muni d'une relation 
d'ordre partiel. 
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Les attributs appartenant a chaque domaine d'attribut Ai 
peuvent done etre organises en une structure hierarchique comportant 
plusieurs niveaux definis selon la relation d'ordre partiel du domaine 
d'attribut. Mors, la pluralite de domaines d'attributs (Al,...,Ai,...An) forme 

5 plusieurs structures hierarchiques. 

D'une maniere generate, on parlera de « concept » pour 
designer un element quelconque de A\x...xAn. En outre, les concepts 
non generalises, e'est-a-dire les concepts dont les attributs 
n'appartiennent qu'aux feuilles des hierarchies sont appeles des 

10 « individus ». Ainsi, les alettes issues des sondes de detection dlntrusions 
11a, lib, 11c peuvent §tre considerees comme des individus qui font 
I'objet de la classification. 

L'objectif de la classification selon I'invention est d'identifier des 
concepts pertinents en effectuant des generalisations successives sur les 

1 5 attributs des individus, en fonctton de leur relation d'ordre partiel. 

Les concepts a classifier sont structures dans un treillis 
r = (C,i?) ou flcCxC, et C est Pensemble des nceuds du treillis 
correspondant aux concepts. Ainsi, dans un treillis la notion de concept 
peut §tre confondue avec celle du nceud. 

20 II existe un lien (c x ,c 2 )<=R du nceud cj vers le noeud c 2 si c x 

est issu de I'abstraction ou de la generalisation de c 2 selon n'importe quel 
attribut. On note t(c 1 ) = {c 2 e C/(c 2 ,c,) ei?} I'ensemble des nceuds 
parents du nceud c t . De m§me, on note i{c x ) = {c 2 ^CI(c l ,c 2 )&R} 
I'ensemble des nceuds enfants de c, . 

25 Le sous-ensemble i Ai (c) de I'ensemble ^ (c) est I'ensemble 

des nosuds enfants de c, issus de la specialisation de c selon le domaine 
d'attribut At . 
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De meme, le sous-ensemble (c) de I'ensemble t (c) est 
I'ensemble des nceuds parents de c, issus de la generalisation de c selon 
le domaine d'attribut Ai . 

On notera que la relation i Ai peut etre consideree comme une 
5 fonction lorsque la structure hierarchique est une structure arborescente. 

Ainsi, on peut definir une relation d'ordre partiel < sur 
I'ensemble des concepts de la maniere suivante : 

\3Ai, Cl [Ai]-< Ai c 2 [Ai\ 
<eC**C: Cl < c 2^\ wAj>cA4fhAiC2 [ A j]]' 

ou c[Ai] designe I'attribut appartenant au domaine d'attribut Ai du 

10... concept c. _ _ 

Cette relation d'ordre partiel < permet de construire pour 
chaque individu t, en particulier pour chaque alerte issue des sondes de 
detection dlntrusions, un treillis propre a cette alerte en generalisant 
chaque alerte selon chacun de ses attributs et a tous les niveaux de la 
15 structure hierarchique. 

Formellement, si !-(«»,...«.) est un individu, le treillis propre 

Ti = (Ci,m) associe a I'individu i est defini de la maniere suivante : 

. Ci = %c x ,..jc n )eAl*...An/ a } < Aj Cj \ 

[, . (3\Al/{cj[Al\c k [A$e covert M )X[ 

Ri^Cj.c^eCixCi/^ v Am * A l,cj[Am] = c k [Am) JJ 

20 Ainsi, un treillis general contenant I'ensemble des concepts peut 

etre construit par ajouts successifs des treillis propres. 

[.'insertion d'un individu dans le treillis general se fait en 
fusionnant le treillis propre a I'individu avec le treillis general. 

Formellement, etant donne I'ensemble / d'individus, le treillis 
25 general T = (C,R) est defini de la maniere suivante : 
C = U Ci et R = U Ri 

is! tel 
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Ainsi, un treillis propre peut etre construit pour chaque alerte 
issue des sondes de detection d'intrusions lla f lib, 11c. Ce treillis propre 
comporte done des nceuds correspondant a des alertes, lies entre eux par 
des arcs de sorte que chaque noeud est lie a un ou des noeuds parents 
5 et/ou un ou des noeuds enfants ou descendants. 

Ensuite, chacun des treillis propres associes aux alertes issues 
des sondes de detection d'intrusions peut etre fusionne de fagon iterative 
dans le treillis general. 

Finalement, des alertes synthetiques peuvent etre identifies 
10 dans le treillis general, en selectionnant les alertes qui sont a la fois les 
plus pertinentes et les plus generates selon des criteres statistiques et 
selon I'appartenance de leurs attributs a des niveaux inferieurs des 
structures hierarchiques. 

En effet, les figures 2 a 4, montrent des organigrammes 
15 illustrant la formation du treillis propre a un individu donne, la fusion d'un 
treillis propre donne dans le treillis general, et la selection des concepts 
pertinents et generaux. 

L'organigramme de la figure 2 montre la formation d'un treillis 
propre a un individu donne. Plus particulierement, il montre la 
20 construction d'un treillis propre Ti = (Ci,Ri) en cours d'elaboration au 
voisinage d'un concept donne ou alette donnee. 

Ainsi, a I'etape E0, on definit le concept donne c = (a 1? ...,a w ) 

ainsi que I'indice / correspondant a I'indice de Tattribut a partir duquel la 
generalisation est mise en ceuvre, sachant que les generalisations selon 
25 les attributs d'indices inferieurs sont considerees comme correspondant a 
des concepts qui ont deja ete ajoutes au treillis propre Ti au cours 
d'appels recursifs anterieurs. 

Les etapes El a E3 sont une boucle principale qui itere sur les 
indices d'attributs selon lesquels le nceud donne en parametre, a I'etape 
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EO, va etre generalise. L'iteration est faite pour tous les indices k entre / 
et n et pour tous les attributs a k generalisables. 

Ainsi, pour tout attribut a k qui peut etre generalise a partir de 
sa structure hierarchique, on calcule a I'etape E2 la fonction genAtt{c,k) 
5 qui recupere la valeur de I'attribut qui generalise celui de a k pour former 
un concept p correspondant a la generalisation du concept c selon 
Tindice k. 

Ce concept generalise p est ajoute au treillis Ci = Ci\J P et un 
arc est ajoute allant du concept c vers le concept Pl c'est-a-dire 

10 Ri = Ri\J{(p,c)}. 

_ x'etapeE3.estjLme_Muc!ejnteme les . a .^ P_ an _9 ua - n . ts ... 

allant des nceuds parents du concept c, issus de la generalisation de c 
selon tous les attributs dlndice inferieur ou egal a k, c'est-a-dire 

m = RiU^ Ak/ t Ah {c\p\ 
1 5 L'etape E4 est un appel recursif ou I'organigramme est applique 

pour des nouveaux parametres. 

Ainsi, I'algorithme de la formation d'un treillis propre pour un 
concept donne c peut etre decrit comme ci-dessous : 

20 Algorithme '.Treillis propre 

Donnees : Le concept c = (ai ,.••>«« )/ 

I'indice I de I'attribut a partir duquel generalise^ 

le treillis Ti = {Ci,Ri) en cours 

d'elaboration. 
25 pour k e [/; n] faire 

si a k est general/sable, alors 

p = genAtt(c,k) 
Ci = Ci\Jp 
Ri = Ri\j{(jP>c)} 
30 pourhe[o,k] faire 

Ri = Ri\jfc AkJ t Ah (clp)} 



15 



rm 

fin 

Treillis propre(p, k, Ti) 

fin. 

5 

Plus particulierement, la figure 2A montre un exemple de la 
construction du treillis propre 31 a partir d'une alerte donnee 
correspondant a un nceud donne A selon le deuxieme attribut du nceud A. 
Autrement dit, a partir des parametres d'appel (c = A,k- 1,7V = Tc) . 

10 D'une maniere generate, pour tout attribut generalisable de 

I'alerte donnee, on recupere la valeur generalisee de cet attribut a partir 
de sa structure hierarchique pour former une nouvelle alerte plus generate 
que I'alerte donnee. 

Selon cet exemple, a I'etape k = 2 de l'algorithme, un nouveau 

15 nceud D correspondant a la nouvelle alerte formee selon la generalisation 
du deuxieme attribut du nosud A, est ajoute au treillis propre ainsi qu'un 
arc (D, A) allant du nouveau nceud D de la nouvelle alerte au nceud A de 
I'alerte donnee. 

Ensuite des arcs manquants allant des nceuds parents de 
20 I'alerte donnee A au nceud D de la nouvelle alerte sont ajoutes. Les 
nceuds parents de I'alerte donnee sont issus de la generalisation de I'alerte 
donnee selon ses autres attributs. 

Selon cet exemple, a I'iteration precedente (k = 1J, le treillis de 
sommet B a ete construit. Les generalisations de D selon des attributs 
25 dont I'indice est inferieur a A'ont deja ete ajoutees, en I'occurrence C, pour 
k = 1. Ainsi, seul I'arc manquant (C, D) est ajoute. 

L'algorithme est re-execute recursivement avec comme 
parametres (D, 2, T). 

D'une maniere generale, le treillis propre a un individu 
30 i = {a l ,... i a n ) est obtenu en appelant l'algorithme Treillis Propre 

( c = /,fc = U7 = ({/},{})), 
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sachant qu'au depart, le treillis propre associe aii nceud i est forme d'un 
seul nceud et I'ensemble des arcs est encore vide. 

L'organigramme de la figure 3 montre la fusion d'un treillis 

propre donne dans le treillis general. 

5 A I'etape E10, les parametres d'in'itialisation sont definis. En 

particulier, il est selectionne un premier nceud correspondant a une 
premiere alette ou concept h appartenant au treillis propre Ti = (Ci,Ri) r et 
un second nceud correspondant a une seconde alerte ou concept g 
appartenant au treillis general T = (C,R) . 

qo La boucle principale entre les etapes Ell et E14 ou E15, itere 

sur I'ensemble des nceuds enfants du nceud h du treillis propre passe en 

parametre; c'est-a^dire pour hj ^Hfrj-.- - - ~-~ - - 

Ainsi, a I'etape Ell un nceud enfant hj du premier nceud h est 

choisi. 

1 5 A y&apQ E12/ on verifie si ce nceud enfant hj du premier nceud 

h appartient aussi au treillis general. Autrement dit, on verifie si 
3gj ei(g)tel que gj=hj. 

Dans I'affirmative, tous les arcs provenant des nceuds parents 
de ce nceud enfant sont supprimes Ri = Ri- 1 (hj) a I'etape E13, avant de 

20 passer a I'etape E14. 

En effet, la proposition suivante dit que si un nceud hj d'un 

treillis propre existe deja dans le treillis general, alors I'ensemble de ses 
parents s'y trouve aussi, c'est-a-dire : 

• (hj e a *3g k e C,hj = git)=>t (h) c C . 
25 L'etape E15 est un appel recursif ou l'organigramme est 

applique a nouveau a partir de I'etape Ell mais pour des nouveaux 
parametres. 
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En effet, les enfants du nceud hj ne sont pas forcement dans le 

treillis general, il taut done executer recursivement I'algorithme sur ce 
noaud hj. 

En revanche, si le noeud enfant n'appartient pas au treillis 
5 general, alors il suffit de I'y ajouter t = T\JT?zj ainsi que I'ensemble de 

ses descendants a I'etape E15 avant de revenir a I'etape Ell. 

La contraposee de la proposition precedente nous assure qu'il 

n'y aura pas de duplication de nceuds. 

Ainsi, I'algorithme de la fusion d'un treillis propre au treillis 

10 general peut etre decrit comme ci-dessous : 

Algorithme : Fusion Treillis 

Doimees : Un concept g du treillis general T = {C,R), 

un concept h du treillis propre Ti = (d, Ri) de 

l?nd/Vidu i 

15 pour chaque concept kj <=l(h) faire 

si 3gj e.1 (g) te/que g } = hj alors 
Ri = Ri-1-(hj) 
Fusion Treiiiis (gj,hj) 

fin 

20 sinon 

Ri = Ri-{h,hj)\ 
T = T\jTftj 

fin 

fin. 

25 

Les figures 3A et 3B schematised le mecanisme de fusion d'un 
treillis propre au treillis general, selon Torganigramme de la figure 3. 

Dans ces deux figures 3A et 3B, la portion de treillis de gauche 
appartient au treillis general et celle de droite au treillis propre que Ton 
30 souhaite fusionner. Les nceuds grises sont les parametres d'appel de 
I'algorithme. lis sont egaux, par hypothese (A = A'). 

Selon la figure 3A, Pun des enfants B' de A 1 est deja present 
dans A (B' = B). Les liens 41, 43, et 45 vers les ancetres immediats de B' 
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sont supprimes car on salt qu'ils sont deja dans le treillis general. 
L'algorithme est alors appele recursivement sur Bet B\ 

Selon la figure 3B, le nceud C n'existe pas en tant qu'enfant de 
A, alors un lien 47 (en pointilles) est cree entre A et C, et le lien 49 qui 
5 liait C a A' est supprime. Le sous treillis ayant comme sommet C est done 

integre au treillis general. 

L'algorithme est appele avec comme arguments les sommets du 
treillis propre a I'individu a inserer et le sommet du treillis general. Comme 
tous les treillis ont un meme sommet correspondant au noeud le plus 
10 general, I'hypothese selon laquelle les concepts passes en arguments a 
ralgorithme sont egaux est respectee. 

L'organigramme de la figure 4 montre ('identification des alertes 
ou concepts synthetiques fournissant un ensemble P des alertes ou 
concepts qui sont a la fois les plus pertinents et les plus generaux d'une 

1 5 alette ou d'un concept c . 

Une alerte ou un concept c est dit pertinent si chacun des 

ensembles l M (c) est « homogene » et « suffisamment grand ». 

Un ensemble d'alertes ou de concepts est homogene si la 
dispersion du nombre d'individus couverts par chaque concept n'est pas 
20 trap grande. On utilise a cet effet, de fagon connue un coefficient de 
variation. 

Un ensemble i Ai (c) est suffisamment grand si le nombre 

d'elements qui le compose est superieur a une valeur seuil liee au niveau 

d'abstraction ou de generalisation de I'attribut Ai de c. 

25 Formellement : 

( o- F 
p ( C )oViJW>r c /^<l 
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ou la fonction p(c) designe une fonction booleenne indiquant si un noeud 
est pertinent; F Ai est I'ensemble forme des d'individus couverts par 

chaque concept de l Ai (c) ; m FM est la moyenne de F Ai ; cr^ sa 

variance; et t Cju represente la valeur de seuil liee ail niveau d'abstraction 

5 du domaine d'attribut Ai de c . 

Le nombre d'individus couverts par un concept est une valeur 
liee a chaque nceud du treillis et mise a jour lors de la fusion d'un treillis 
propre associe a un individu avec le treillis general. 

Ainsi, une alette est dite pertinente si chacun des ensembles 
10 des noeuds enfants de I'alerte pertinente c issus de la specialisation de 
cette alerte c selon chacun de ses domaines d'attributs est homogene, et 
si le nombre d'elements composant chacun des ensembles des nceuds 
enfants de I'alerte pertinente c est superieur a une valeur seuil. 

l'etape E20 de I'organigramme de la figure 4, correspond a la 
15 definition des parametres d'appel. Ces parametres component un concept 
c du treillis general t = (c,r), un ensemble P des concepts pertinents 
precedemment trouves, et un entier t utilise pour le parcours du treillis. 

L'etape E21, est un test pour verifier la pertinence de c . Ainsi si 
le concept c est pertinent, alors on passe a l'etape E22, ou le concept c 
20 est ajoute a I'ensemble P des concepts pertinents P = PU{c), et 
I'ensemble des concepts plus specifiques que c eventuellement ajoutes 
precedemment sont elimines de I'ensemble P, c'est-a-dire 
P = P-{ci ePJc t - <c). En effet, on cherche les concepts les plus abstraits, 

tout en etant pertinents. 
25 En revanche, si c n'est pas pertinent, alors Palgorithme est 

applique recursivement, a I'etapes E23 sur I'ensemble des enfants de c 
issus de la specialisation de c selon les attributs d'indices / superieurs ou 
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egaux a t, c'est-a-dire c { € i M (c), sachant que les autres attributs ont 

deja ete analyses. 

Quand I'algorithme se termine, une liste comportant les 
concepts juges pertinents et generaux est fournie a I'unite de sortie 23 du 
5 systeme de gestion d'alertes 13 afin qu'un operateur de securite puisse 
avoir une vision globale de I'ensemble des alertes. Si ce dernier souhaite 
des details sur un concept quelconque c qu'il juge trop abstrait, alors 
raigorithme est re-execute sur I'ensemble des enfants de ce concept c . 

Ainsi, I'algorithme d'identification des concepts synthetiques 
1 0 peut etre decrit comme ci-dessous : 

Algorithme : Synthetiques 

Donnees : Un concept c du tret'llis general T = (C,i?), 
un ensemble P des concepts pertinents precedemment trouves 
un entiert utilise pour le parcours du treillis 
15 si p{c) alors 

P = P-{c f eP/c f <c} 

? = PU{c} 
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fin 

sinon 



pourle[t,n] faire 

pourchaque element c t e -l M (c) faire 
25 Synthetiques{ci,P,l) 

fin 

fin 

fin 

30 On notera que les alertes synthetiques sont associees a des 

differents groupes d'alertes issus des sondes de sorte que ces groupes ne 
sont pas forcement mutuellement exclusifs. 

En effet, la figure 5 montre de facon tres schematique une 
alerte associee a differentes alertes synthetiques. 
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Les alertes Al a A6 emises par les sondes de detection 
d'intrusions sont les feuilles du treillis general. Le groupe d'alertes associe 
a une alerte generate est I'ensemble des feuilles accessibles depuis cette 
alerte generate. 

Ainsi, le groupe d'alerte A123 est associe a I'alerte synthetique 
SI et le groupe d'alerte A34 est associe a I'alerte synthetique S2. En 
revanche, les alertes A4 a A6 sont associees a une alerte generate A7 qui 
n'est pas une alerte synthetique. 

Etant donne la structure meme du treillis, les groupes d'alertes 
ne sont pas mutuellement exclusifs. Ainsi, I'alerte A3 participe a deux 
phenomenes, c'est-a-dire a deux groupes d'alertes differents A123 et A34. 

Les alertes issues de sondes de detection d'intrusions sont des 
individus definis par une pluralite d'attributs appartenant a une pluralite de 
domaines d'attributs. Les domaines d'attributs peuvent comporter un 
ensemble des identifiants d'alertes, un ensemble des sources d'attaques, 
un ensemble des cibles d'attaques, et un ensemble des dates d'attaques. 

Les figures 6A a 7, montrent un exemple simplifie de 
classification d'un ensemble d'alertes issues de sondes de detection 
d'intrusions. 

20 selon cet exemple, les alertes sont des triplets 

{nom,src,dst)eNxSxD r ou N represente I'ensemble des identifiants 
d'alertes, s represente I'ensemble des sources d'attaques, et D 
represente I'ensemble des cibles d'attaques. Dans d'autres exemples, les 
alertes pourraient etre constitutes d'autres types d'attributs, ou bien les 

25 memes mais avec des domaines definis differemment. 

Au niveau d'abstraction le plus bas, les identifiants d'alertes 
sont les identifiants de signatures de I'outil de detection d'intrusions 
Snort™. Le niveau d'abstraction superieur est constitue des classes 
d'attaques definies par Snort™. Le niveau d'abstraction superieur est 
30 constitue d'un seul element, « any ». 
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En effet, la figure 6A montre une hierarchie simplifiee associee 
au domaine de I'ensemble des identifiants. Le premier niveau d'abstraction 
ou de generalisation Nil comporte les elements « attl » et « att2 ». Les 
deuxieme et troisieme niveaux de generalisation N12, N13 component les 
elements « web-attack » et « any » respectivement. 

Au niveau d'abstraction le plus bas, les sources d'attaques sont 
des adresses du type IPv4. Le niveau d'abstraction superieur est constitue 
des noms de domaines de reseau geres par I'organisme IANA™ et ses 
branches locales (RIPE, APNIC, ARIN, etc.). Les adresses IP non 
enregistrees dans la base IANA™ ou les adresses publiques internes au 
systeme d'information surveille ou les adresses IP privees, sont abstraites 
en notation du type CIDR (par exemple 192.168.0.0/24). Le niveau 
superieur peut etre constitue de deux elements, « external » et 
« internal » pour designer I'exterieur et I'interieur du systeme 
d'information. Le niveau d'abstraction suivant est constitue d'un seul 

element, « any ». 

L'exemple de la figure 6B montre une hierarchie simplifiee 
associee au domaine de I'ensemble de sources d'attaques. Le premier 
niveau d'abstraction ou de generalisation comportant les elements 
« 192.168.0.1 » et « 192.168.0.33 ». Les deuxieme et troisieme niveaux 
de generalisation component les elements « internal » et « any » 
respectivement. 

Au niveau d'abstraction le plus bas, les cibles d'attaques sont 
les adresses IP publiques et privees du systeme d'information. Le niveau 
d'abstraction suivant est constitue des adresses de reseau en notation 
CIDR. Le niveau d'abstraction suivant est constitue d'un seul element, 
« any ». 

La figure 6C montre une hierarchie simplifiee associee au 
domaine de I'ensemble de cibles d'attaques. Les premier, deuxieme et 
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troisieme niveaux d'abstraction ou de generalisation com portent les 
elements « 192.168.0.10 », « proxy », et « any » respectivement. 

La figure 7 illustre un treillls general associe a deux alertes Al 
et A2 definis par Al(att2, 192.168.0.1, 192.168.0.10) et A2(attl, 
5 192.168.0.33, 192.168.0.10). 

Selon cet exemple et d'apres les hierarchies d'attributs des 
figures 6A a 6C f les identifiants d'attaque sont generalises en classe 
d'attaque « web-attack », puis en « any ». 

Les adresses IP des attaquants sont generalises en 
10 « internal » puis en « any ». 

Les adresses IP des victimes sont generalisees en fonction 
d'hote « proxy », puis en « any ». 

Selon cet exemple, il y a deux attaquants distincts 192.168.0.1 
de l'alerte Al et 192.168.0.33 de I'alerte A2 qui sont des adresses IP 
1 5 internes. II y a une seule victime 192.168.0.10, qui est un proxy web. 

L'alerte la plus abstraite inferee par le systeme est (any, any, 
any). Les fleches pleines denotent une generalisation selon I'attribut qui 
correspond a I'attaque, les fleches en tirets denotent une generalisation 
selon I'attribut qui correspond a I'attaquant, et les fleches en pointilles 
20 denotent une generalisation selon I'attribut qui correspond a la victime. 

A Tissue du processus de selection des alertes pertinentes, le 
systeme propose l'alerte synthetique (web-attack, internal, proxy). Les 
autres alertes sont soit trap generates, soit trop specifiques. 
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REVENDICATIONS 

1. Procede de classification automatique d'un ensemble d'alertes issues de 
sondes de detection dlntrusions (11a, lib, 11c) d'un systeme de securite 
5 deformation (1) pour produire des alettes synthetiques, chaque alerte 
etant definie par une pluralite d'attributs qualitatifs {a u ...,a n ) appartenant 
a une pluralite de domaines d'attributs fa- An) dont chacun est muni 
d'une relation d'ordre partiel, caracterise en ce qu'il comporte les etapes 
suivantes : 

10 -organiser les attributs appartenant a chaque domaine d'attribut en une 
structure hierarchique comportant plusieurs niveaux definis selon la 
relation d'ordre partiel du domaine d'attribut, la pluralite de domaines 
d'attributs formant ainsi plusieurs structures hierarchiques ; 
-construire pour chaque alerte issue des sondes de detection d'lntrusions 

15 (lla, lib, lie), un treillis propre a cette alerte en generalisant chaque 
alerte selon chacun de ses attributs et a tous les niveaux de la structure 
hierarchique, le treillis propre comportant des nceuds, correspondant a des 
alertes, lies entre eux par des arcs de sorte que chaque nceud est lie a un 
ou des nceuds parents et/ou un ou des nceuds enfants ou descendants ; 

20 -fusionner de facon iterative dans un treillis general, chacun des treillis 
propres ; 

-identifier dans le treillis general, les alertes synthetiques en selectionnant 
les alertes qui sont a la fois les plus pertinentes et les plus generates selon 
des criteres statistiques et selon I'appartenance de leurs attributs a des 
25 niveaux inferieurs des structures hierarchiques; et 

-produire les alertes synthetiques a une unite de sortie (23) d'un systeme 
de gestion d'alertes (13) afin de presenter une vision globale de 
('ensemble des alertes issues des sondes de detection d'intrusions (lla, 
lib, 11c). 

30 
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2. Precede selon la revendication 1, caracterise en ce que (a construction 
d'un treillis propre comporte les etapes suivantes : 
-recuperer pour tout attribut generalisable d'une alette donnee, la valeur 
generalisee de cet attribut a partir de sa structure hierarchique pour 
5 former une nouvelle alette plus generate que ladite alette donnee ; 

-ajouter un nouveau nceud au treillis propre correspondant a la nouvelle 
alerte et ajouter un arc allant du nouveau nceud de la nouvelle alette au 
nceud de I'alerte donnee ; 

-ajouter des arcs manquants allant des nceuds parents de I'alerte donnee, 
10 issus de la generalisation de I'alerte donnee selon ses autres attribute, au' 
nceud de la nouvelle alette. 



3. Procede selon I'une quelconque des revendications 1 et 2, caracterise 
en ce que la fusion d'un treillis propre donne dans le treillis general 
1 5 , comporte les etapes suivantes : 

-selectionner un premier nceud correspondant a une premiere alerte 
appartenant au treillis propre donne, et un second nceud correspondant a 
une seconde alette appartenant au treillis general ; 
-supprimer tous les arcs provenant des nceuds parents d'un nceud enfant 
du premier nceud si ledit nceud enfant appattient aussi au treillis general, 
-ajouter au treillis general ledit nceud enfant et I'ensemble de ses 
descendants si ledit nceud enfant n'appartient pas au treillis general. 



20 



25 



30 



4. Procede selon I'une quelconque des revendications 1 a 3, caracterise en 
ce que une alette pertinente est identifiee lorsque chacun des ensembles 
des nceuds enfants de I'alerte pertinente issus d'une specialisation de 
cette alette selon chacun de ses domaines d'attribute est homogene, et 
lorsque le nombre d'elemente composant ledit chacun des ensembles des 
nceuds enfants de I'alerte pertinente est superieur a une valeur seuil. 
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5. Procede selon I'une quelconque des revendications 1 a 4, characterise en 
ce que les alettes synthetiques sont associees a des difrerents groupes 
d'alertes issus des sondes de sorte que ces groupes ne sont pas 
mutuellement exclusifs. 

6. Procede selon I'une quelconque des revendications 1 a 5, caracterise en 
ce que la pluralite des domaines d'attributs comporte des domaines parmi 
les ensembles sulvants : ensemble des identifiants d'alertes, ensemble des 
sources d'attaques, ensemble des cibles d'attaques, et ensemble des dates 
d'attaques. 

7. Programme informatique caracterise en ce qu'il est concu pour mettre 
en oeuvre le procede selon I'une quelconque des revendications 1 a 6 
lorsqu'il est execute par le systeme de gestion d'alertes (13). 
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